Humans constantly interact with objects in daily life tasks. Capturing such processes and subsequently conducting visual inferences from a fixed viewpoint suffers from occlusions, shape and texture ambiguities, motions, etc. To mitigate the problem, it is essential to build a training dataset that captures free-viewpoint interactions. We construct a dense multi-view dome to acquire a complex human object interaction dataset, named HODome, that consists of $\sim$75M frames on 10 subjects interacting with 23 objects. To process the HODome dataset, we develop NeuralDome, a layer-wise neural processing pipeline tailored for multi-view video inputs to conduct accurate tracking, geometry reconstruction and free-view rendering, for both human subjects and objects. Extensive experiments on the HODome dataset demonstrate the effectiveness of NeuralDome on a variety of inference, modeling, and rendering tasks. Both the dataset and the NeuralDome tools will be disseminated to the community for further development.
translated by 谷歌翻译
Depth estimation is usually ill-posed and ambiguous for monocular camera-based 3D multi-person pose estimation. Since LiDAR can capture accurate depth information in long-range scenes, it can benefit both the global localization of individuals and the 3D pose estimation by providing rich geometry features. Motivated by this, we propose a monocular camera and single LiDAR-based method for 3D multi-person pose estimation in large-scale scenes, which is easy to deploy and insensitive to light. Specifically, we design an effective fusion strategy to take advantage of multi-modal input data, including images and point cloud, and make full use of temporal information to guide the network to learn natural and coherent human motions. Without relying on any 3D pose annotations, our method exploits the inherent geometry constraints of point cloud for self-supervision and utilizes 2D keypoints on images for weak supervision. Extensive experiments on public datasets and our newly collected dataset demonstrate the superiority and generalization capability of our proposed method.
translated by 谷歌翻译
最近,我们看到了照片真实的人类建模和渲染的神经进展取得的巨大进展。但是,将它们集成到现有的下游应用程序中的现有网络管道中仍然具有挑战性。在本文中,我们提出了一种全面的神经方法,用于从密集的多视频视频中对人类表演进行高质量重建,压缩和渲染。我们的核心直觉是用一系列高效的神经技术桥接传统的动画网格工作流程。我们首先引入一个神经表面重建器,以在几分钟内进行高质量的表面产生。它与多分辨率哈希编码的截短签名距离场(TSDF)的隐式体积渲染相结合。我们进一步提出了一个混合神经跟踪器来生成动画网格,该网格将明确的非刚性跟踪与自我监督框架中的隐式动态变形结合在一起。前者将粗糙的翘曲返回到规范空间中,而后者隐含的一个隐含物进一步预测了使用4D哈希编码的位移,如我们的重建器中。然后,我们使用获得的动画网格讨论渲染方案,从动态纹理到各种带宽设置下的Lumigraph渲染。为了在质量和带宽之间取得复杂的平衡,我们通过首先渲染6个虚拟视图来涵盖表演者,然后进行闭塞感知的神经纹理融合,提出一个分层解决方案。我们证明了我们方法在各种平台上的各种基于网格的应用程序和照片真实的自由观看体验中的功效,即,通过移动AR插入虚拟人类的表演,或通过移动AR插入真实环境,或带有VR头戴式的人才表演。
translated by 谷歌翻译
近年来,由于其在数字人物,角色产生和动画中的广泛应用,人们对3D人脸建模的兴趣越来越大。现有方法压倒性地强调了对面部的外部形状,质地和皮肤特性建模,而忽略了内部骨骼结构和外观之间的固有相关性。在本文中,我们使用学习的参数面部发电机提出了雕塑家,具有骨骼一致性的3D面部创作,旨在通过混合参数形态表示轻松地创建解剖上正确和视觉上令人信服的面部模型。雕塑家的核心是露西(Lucy),这是与整形外科医生合作的第一个大型形状面部脸部数据集。我们的Lucy数据集以最古老的人类祖先之一的化石命名,其中包含正牙手术前后全人头的高质量计算机断层扫描(CT)扫描,这对于评估手术结果至关重要。露西(Lucy)由144次扫描,分别对72名受试者(31名男性和41名女性)组成,其中每个受试者进行了两次CT扫描,并在恐惧后手术中进行了两次CT扫描。根据我们的Lucy数据集,我们学习了一个新颖的骨骼一致的参数面部发电机雕塑家,它可以创建独特而细微的面部特征,以帮助定义角色,同时保持生理声音。我们的雕塑家通过将3D脸的描绘成形状混合形状,姿势混合形状和面部表达混合形状,共同在统一数据驱动的框架下共同建模头骨,面部几何形状和面部外观。与现有方法相比,雕塑家在面部生成任务中保留了解剖学正确性和视觉现实主义。最后,我们展示了雕塑家在以前看不见的各种花式应用中的鲁棒性和有效性。
translated by 谷歌翻译
基于文本的人检索的核心问题是如何弥合多模式数据之间的异质差距。以前的许多方法,用于学习以\ textbf {交叉模式分布共识预测(CDCP)}方式学习潜在的常见歧管映射范式。当将某个模态分布到公共歧管中的映射特征时,相反模态的特征分布是完全不可见的。也就是说,如何实现跨模式分布共识,以便将多模式特征嵌入和对齐构建的跨模式公共歧管中,这完全取决于模型本身的经验,而不是实际情况。通过这种方法,不可避免的是,多模式数据在共同的歧管中不能很好地对齐,这最终导致了次优的检索性能。为了克服此\ textbf {CDCP困境},我们提出了一种称为lbul的新颖算法,以学习基于文本的人检索的一致的跨模式公共歧管(C $^{3} $ M)。正如中文的谚语所说,我们方法的核心思想是``\ textit {san si er hou xing}',即\ textbf {thee thee thee thee thee you lap leak(lbul)}。 LBUL的常见歧管映射机制包含一个看起来的步骤和跳跃步骤。与基于CDCP的方法相比,LBUL考虑了视觉和文本方式的分布特征,然后将数据从某种模式嵌入到C $^{3} $ M中以获得更固体的交叉模式分布共识,从而获得了优质检索准确性。我们对两个基于文本的人检索数据集Cuhk-Pedes和RSTPREID评估了建议的方法。实验结果表明,所提出的LBUL胜过先前的方法,并实现了最新的性能。
translated by 谷歌翻译
给定自然语言描述,基于文本的人检索旨在从大规模人物图像数据库中识别目标人的图像。现有方法通常面对\ textbf {颜色过度盟军问题},这意味着在匹配跨模式数据时,模型在很大程度上依赖颜色信息。实际上,颜色信息是检索的重要决策,但是对颜色的过度依赖会分散模型从其他关键线索(例如纹理信息,结构信息等)中分散注意力,从而导致了次优的检索表现。为了解决这个问题,在本文中,我们建议\ textbf {c} apture \ textbf {a} ll-round \ textbf {i} nformation \ textbf {b} eyond \ textbf {c} olor(c} olor( )通过用于基于文本的人检索的共同优化的多分支体系结构。 CAIBC包含三个分支,包括RGB分支,灰度(GRS)分支和颜色(CLR)分支。此外,为了以平衡和有效的方式充分使用全方位信息,采用了相互学习机制来启用三个分支,这些分支可以参与信息的各个方面,以相互交流和学习。进行了广泛的实验分析,以评估我们在\ textbf {有监督}和\ textbf {弱监督}基于文本的人检索的\ textbf {pertexbf {pertegbf {pertegbf {cuhk-pedes和rstpreid数据集上的提议的CAIBC方法,这表明CAIBC显着超过现有的方法和现有方法。在这三个任务上实现最先进的性能。
translated by 谷歌翻译
3D感知的生成模型已经证明了它们的出色性能,从而从单眼2D图像集合中生成3D神经辐射场(NERF),甚至对于拓扑视为对象类别。但是,这些方法仍然缺乏分别控制生成的辐射场中对象的形状和外观的能力。在本文中,我们提出了一个生成模型,用于合成具有分离形状和外观变化的拓扑变体对象的辐射场。我们的方法生成可变形的辐射字段,该字段构建了对象的密度字段之间的密度对应关系,并在共享模板字段中编码它们的外观。我们的分解是以无监督的方式实现的,而没有向先前的3D感知gan培训引入额外的标签。我们还开发了一种有效的图像反转方案,用于在真实的单眼图像中重建对象的辐射场并操纵其形状和外观。实验表明,我们的方法可以从非结构化的单眼图像中成功学习生成模型,并很好地解散具有较大拓扑方差的物体(例如椅子)的形状和外观。经过合成数据训练的模型可以忠实地在给定的单个图像中重建真实对象,并获得高质量的纹理和形状编辑结果。
translated by 谷歌翻译
网络安全漏洞是分布式网络物理系统(CPS)的常见异常。但是,即使使用尖端人工智能(AI)方法,网络安全漏洞分类仍然是一个困难的问题。在本文中,我们研究了网络安全性的多类分类问题,以进行攻击检测。考虑了一个具有挑战性的多节点数据审查案例。在这种情况下,当本地数据不完整时,每个数据中心/节点中的数据都无法共享。特别是,本地节点仅包含多个类别的一部分。为了培训全球多级分类器而不在所有节点上共享原始数据,我们研究的主要结果是设计多节点多级分类合奏方法。通过从每个局部节点收集二进制分类器和数据密度的估计参数,每个局部节点的丢失信息都可以完成,以构建全局多类分类器。进行数值实验以验证在多节点数据审查情况下提出的方法的有效性。在这种情况下,我们甚至显示了对全数据ATA方法的拟议方法的表现。
translated by 谷歌翻译
在许多机器学习应用中已经显示了歧视,该应用程序要求在与道德相关的领域(例如面部识别,医学诊断和刑事判决)中部署之前进行足够的公平测试。现有的公平测试方法主要设计用于识别个人歧视,即对个人的歧视。然而,作为另一种广泛的歧视类型,对群体歧视(大多数隐藏)的测试却少得多。为了解决差距,在这项工作中,我们提出了测试,一种可解释的测试方法,它系统地识别和措施隐藏了一个神经网络的隐藏(我们称为“微妙”群体歧视},该神经网络的特征是敏感特征的条件。一个神经网络,TestsgDFirst自动生成可解释的规则集,该规则集将输入空间分为两组,以暴露模型的组歧视。鉴于,Testsgdalso提供了基于对输入空间进行采样的估计组公平得分,以衡量确定的SIXTEL组歧视程度,这可以确保准确地达到错误的限制。我们评估了在包括结构化数据和文本数据在内的流行数据集中训练的测试多个神经网络模型。实验结果表明,测试有效地有效地识别和测量了如此微妙的群体歧视,以至于该测试效率以前从未透露过。矿石,我们表明,测试的测试结果指南生成新样品的测试结果,以通过可忽略不计的准确性下降来减轻这种歧视。
translated by 谷歌翻译
关键字斑点(KWS)对基于语音的用户交互与边缘的低功耗设备有益。边缘设备通常始终在线,因此Edge Computing带来带宽节省和隐私保护。这些设备通常具有有限的内存空间,计算性能,功率和成本,例如基于皮质的微控制器。面临的挑战是满足这些设备深度学习的高计算和低延迟要求。本文首先显示了我们在STM32F7微控制器上使用Cortex-M7 Core @216MHz和512KB静态RAM运行的小脚印KWS系统。我们选择的卷积神经网络(CNN)体系结构简化了KW的操作数量,以满足边缘设备的约束。我们的基线系统为每37ms生成分类结果,包括实时音频功能提取部分。本文进一步评估了微控制器上不同修剪和量化方法的实际性能,包括稀疏性的不同粒度,跳过零重量,重量优先级环路和SIMD指令。结果表明,对于微控制器,加速非结构化的修剪模型面临着巨大的挑战,并且结构化的修剪比非结构化的修剪更友好。结果还验证了量化和SIMD指令的性能改进。
translated by 谷歌翻译